Eason Projects
作为一个Eason Fan,连写代码、做项目也是喜欢在Eason上面花心思的……
1.intro
汇总目前我做过的关于Eason(陈奕迅)的项目,包括以下几个
- Eason_Film.py:爬取豆瓣所有Eason电影列表
- music163_EasonLyrics:网易云平台Eason所有单曲歌词爬虫,文本分析
- music163_EasonComments:网易云平台Eason所有单曲评论数、热门评论&最新10条评论爬虫,文本分析
2.结果分析
2.1 Eason_Film
一共爬取到67部电影,详见Eason电影.txt
2.2 music163_EasonLyrics
2.2.1 歌词
一共爬取到536首歌歌词(去重),歌词txt文件详见Lyrics
2.2.2 结果图片
图片结果如下:
上图为歌词词云图
由上述二图分析可知,词频最高的词语为“没有”,其次为“一个”、“我们”等
上述二图为情绪分析指数结果图,由于运用的是snownlp库,但该库是主要针对商品评论做的情感分析库……未免与实际情况有所偏差。结果分析得知歌词情绪分析指数呈“两边低,中间高”分布,评分多集中在0.5~0.8,评分越高,说明歌曲的积极程度越高。同时,取情绪指数 >= 0.6的作为正面情绪,统计出比例,并做出饼状图,发现Eason的歌正面情绪歌曲竟然占比67%……看来Eason唱的歌还是挺积极的啊……
2.3 music163_EasonComments
2.3.1 评论数据分析
截止2017.10.3凌晨(具体忘了时间),一共爬取到5451条热门评论,详见hotComments.xls;爬取最新10条评论,共8492条,详见Newcomments.xls;爬取到858首单曲以及对应的网易云单曲ID,详见songName2ID.xls;爬取到所有单曲评论数,详见songName2commentsNum.xls取前10排行如下:
歌名 | 评论数 |
---|---|
陪你度过漫长岁月 - (电影《陪安东尼度过漫长岁月》主题曲) | 79350 |
好久不见 | 67875 |
十年 | 60062 |
不要说话 | 56746 |
阴天快乐 | 50840 |
可以了 | 40998 |
让我留在你身边 - (电影《摆渡人》爱情版主题曲) | 38108 |
淘汰 | 36806 |
富士山下 | 36433 |
最佳损友 | 34811 |
评论过1w的歌曲数量仅有38首,999+歌曲有241首,感觉比周董的百万《晴天》以及很多的过万歌差别很远啊……最低评论(去除最新专辑《C’mon in~》的需收费,未公开的《未知track》0评论)歌曲是《美丽有罪 (James Ting Remix)》,仅1条评论(应该是版权也没了)
2.3.2 评论文本分析
上图为热门评论词云图
上述二图为热门评论词频分析图,可知词频最高的是“首歌”(这里jieba分词可能有点问题),之后是“一个”(其实该词属于常用词,照理可以剔除)。因此,在我心目中,词频最高的是“喜欢”,第二是“陈奕迅”,也符合常理啦~~
情绪分析套路与前面类似,只是在处理文本方面有些许不同。在这里,我们也可以看到snownlp库的不足了……(虽然也不知道是不是对的,但感觉上不是十分靠谱)。此处情感曲线呈类似指数函数趋势(这结果也是厉害……),正面情绪评论比重为76%,此处不多做分析。
3.New Ideas
以上是目前关于做过的关于Eason的项目,比较偏软件方面,均为Python爬虫。此外,作为Eason Fan,我是十分羡慕Eason的歌喉的。个人有一个长远Project:做一个DSP音频处理器(软件 or 硬件),将自己的声音处理变成Eason的声音。由于个人认为该项目难度相当大,所以作为一个长期Project,或许几年之后才能做出了,但希望自己能坚持做。具体项目细节、所需技术&目标等还没细想,之后开工后会继续慢慢想着
4.More
Python爬虫项目玩了有一阵子了,从暑假开始玩,现在也该不玩了。个人所有Py3爬虫项目以及思路、结果等在GitHub:py_spider,也不是很牛逼的东西,纯属娱乐~~
现在要开坑CV + 算法了……希望,如果有人看到这文章,有点子或者想讨论的可以多多评论留言~~